RT.Datalake
Решение для хранения и обработки данных любых объемов

Продукт
Название базовой системы (платформы): Ростелеком Платформа управления данными
Разработчики: Ростелеком
Дата премьеры системы: 2022/06/08
Технологии: Big Data,  MDM - Master Data Management - Управление основными мастер-данными,  СХД

Содержание

Основные статьи:

RT.DataLake – набор приложений экосистемы Hadoop, объединенных в подготовленный к установке дистрибутив.

2023: Совместимость с «Плюс7 ФормИТ на Hadoop»

12 октября 2023 года DIS Group и «Ростелеком» подписали протокол о совместимости продуктов RT.DataLake и «Плюс7 ФормИТ на Hadoop».

Совместное использование RT.DataLake и «Плюс7 ФормИТ» позволит значительно расширить возможности платформы управления данными «Ростелекома», в том числе профилировать данные и приводить их к требуемому уровню качества – что особенно актуально при создании цифровых двойников и сложной предиктивной аналитике, требующих высочайшего уровня качества данных.

«
Крупным корпоративным заказчикам могут потребоваться дополнительные мощные инструменты интеграции данных при создании озер данных на базе RT.DataLake. Мы считаем, что в таких случаях хорошим решением будет «Плюс7 ФормИТ на Hadoop» и успешно проверили его совместимость с RT.DataLake, – сказал директор по развитию платформы управления данными ПАО «Ростелеком» Станислав Лазуков.
»

В рамках протокола были обозначены следующие задачи тестирования:

  • Автоматизированная установка дистрибутива RT. DataLake при помощи RT.ClusterManager;
  • Интеграция платформ RT.DataLake и компонент «Плюс7 ФормИТ на Hadoop»;
  • Чтение, запись и обработка данных на кластере Hadoop через подключение «Плюс7 ФормИТ на Наdоор» в режимах Native, Spark;
  • Работоспособность утилиты Sqoop: в качестве источника и приемника применялись таблицы Oracle DB и PostgreSQL.

В ходе тестирования проверены все основные режимы совместной работы, включая ключевые возможности по интеграции данных и обработке данных на платформе «Плюс7 ФормИТ на Hadoop» в режиме Pushdown на платформу RT.DataLake.

«
Подтверждение совместимости «Плюс7 ФормИТ на Hadoop» и RT.DataLake даст возможность создавать проекты по построению и наполнению озер данных с большими объемами неструктурированной информации, которые можно будет использовать для решения самых разных бизнес-задач, – отметил технический директор DIS Group Олег Гиацинтов.
»

2022

Решаемые задачи и особенности

Продукт RT.DataLake решает задачи надежного хранения разноформатных данных и распределённых вычислений.

RT.DataLake подойдет для хранения потоковых данных с устройств, логов, файлов и другой информации. За счет технологии распределенного хранения данных с использованием файловой системы HDFS достигается высокая надежность – если один из узлов кластера выйдет из строя, информация не потеряется.

В RT.DataLake можно выполнять аналитические запросы и трансформацию данных - реализованы механизмы MapReduce, Spark, TEZ. Продукт позволяет подготовить данные для использования в моделях машинного обучения и для исследования данных, профилирования или построения аналитических отчетов.

По информации на июль 2022 года RT.DataLake поддерживает гибкие настройки политик безопасности и доступа к данным с использованием технологий Kerberos и Ranger, что позволяет хранить в озере данных даже персональные и другие чувствительные данные, не опасаясь утечки информации.

Особенности:

  • Импортонезависимый продукт, зарегистрированный в реестре отечественного ПО;
  • Использование защищенного репозитория с исходным кодом и поддержка отечественных ОС;
  • Возможность индивидуальной сборки версий компонент дистрибутивов;
  • Встроенный балансировщик нагрузки HAProxy, поддержка кодека сжатия Zstd, поддержка Yarn UIv2 и очередей для fair и capacity шедулера (от англ.scheduler), и другие доработки;
  • Автоматизация сервисных функций: установка, настройка кластера, мониторинг работоспособности и решения инцидентов (механизмы администрирования и решения проблем);
  • Поддержка в режиме 24х7. Географически распределенная команда поддержки и полноценный комплект технической и эксплуатационной документации на русском языке;
  • Гибкость использования. Продукт доступен в двух варианта: облачном и on-premises;
  • Короткий цикл доставки изменений (bugfix, securitybugfix и newfeatures) и выпуска новых версий RT.DataLake за счет автоматизации сборки и тестирования версий;

RT.DataLake поддерживает актуальные и стабильные версии компонент экосистемы Hadoop – 2ю и 3ю. Это позволит исключить проблемы совместимости при миграции данных из других озер и источников данных. А также поможет безболезненно решить вопрос перехода с импортных решений на отечественный продукт.

Продукт может применяться совместно с RT.ClusterManager.

Выход на российский рынок

«Ростелеком» 8 июня 2022 года сообщил о том, что выводит на российский рынок импортонезависимый freeware-дистрибутив RT.Datalake — специальную сборку одного из компонентов «Платформы управления данными», которая предназначена для организации эффективного хранилища больших данных.

RT.Datalake позволяет хранить и обрабатывать данные любых объемов для решения различных бизнес-задач: от построения отчетности до создания моделей машинного обучения. Таким образом, «Ростелеком» предоставляет российским компаниям возможность бесплатно построить собственное озеро данных на отечественной, полностью импортонезависимой сборке дистрибутива Hadoop без затрат на лицензионные взносы.

Продукт основан на Apache Hadoop, он отвечает высоким требованиям надежности и доступности, а также обладает низкой стоимостью хранения данных. Пользователям freeware-дистрибутива будет доступна сборка и подробная инструкция по ее установке с заданными параметрами и настройками. В состав RT.Datalake входят следующие версии компонентов: Hadoop 3.0.0, HBase 2.2.6, Hive 3.1.1, Hue 4.10, Spark 3.0.0, Zookeeper 3.7.0.

Пользователи freeware-дистрибутива смогут заключить договор на консультации специалистов «Ростелекома» — формат технической поддержки, когда клиент обращается за разъяснениями по какому-либо вопросу, возникшему в процессе установки или эксплуатации сборки. Кроме того, за пользователем всегда сохраняется возможность миграции на коммерческую версию, в которой большинство действий автоматизировано с помощью ansible-скриптов и RT.ClusterManager, что упрощает процесс установки и эксплуатации.

«
«Платформа управления данными» уже на июнь 2022 года помогает российским компаниям снизить зависимость от иностранных поставщиков программного обеспечения и уменьшить затраты на работу с данными. Из-за ухода западных вендоров из России и необходимости обеспечения технологического суверенитета, мы решили предоставить российским компаниям возможность бесплатного использования наших продуктов с ограниченным функционалом. Мы даем возможность бесплатно использовать продукт RT.DataLake, а в ближайшее время сделаем доступными еще два продукта в freeware-версии: RT.Warehouse и RT.Streaming, — рассказал директор по управлению данными «Ростелекома» Сергей Носов.
»



ПРОЕКТЫ (1) ИНТЕГРАТОРЫ (1) СМ. ТАКЖЕ (4)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Datareon (Датареон) (234)
  Axelot (Акселот) (145)
  Цифра (31)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (24)
  АйТи Про (IT Pro) (21)
  Другие (258)

  Datareon (Датареон) (32)
  Axelot (Акселот) (24)
  Commvault (5)
  АйТи Про (IT Pro) (4)
  ЮниДата (UniData) (2)
  Другие (35)

  Datareon (Датареон) (37)
  Axelot (Акселот) (32)
  Цифра (7)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (5)
  Софрос (Sofros) (4)
  Другие (21)

  Datareon (Датареон) (22)
  Axelot (Акселот) (15)
  Софрос (Sofros) (9)
  Naumen (Наумен консалтинг) (3)
  Axenix (ранее Аксенчер Россия) Аксеникс (2)
  Другие (26)

  Первый Бит (2)
  Novardis (Новардис Консалтинг) (1)
  Мобильные ТелеСистемы (МТС) (1)
  Наносемантика (Nanosemantics Lab) (1)
  Софрос (Sofros) (1)
  Другие (6)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Datareon (Датареон) (2, 366)
  Цифра (2, 35)
  Axelot (Акселот) (1, 28)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (5, 25)
  Informatica (14, 21)
  Другие (278, 210)

  Datareon (Датареон) (1, 54)
  Commvault (2, 5)
  АйТи Про (IT Pro) (1, 4)
  ЮниДата (UniData) (1, 3)
  SAP SE (1, 2)
  Другие (25, 25)

  Datareon (Датареон) (1, 67)
  Цифра (1, 7)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (3, 5)
  Axelot (Акселот) (1, 5)
  Платформа больших данных (Platforma) (1, 2)
  Другие (14, 15)

  Datareon (Датареон) (1, 42)
  Axelot (Акселот) (1, 5)
  Цифра (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Тандер Сеть магазинов Магнит (2, 2)
  Другие (15, 16)

  Datareon (Датареон) (1, 3)
  Napoleon IT (Наполеон Айти) (1, 1)
  Наносемантика (Nanosemantics Lab) (1, 1)
  Технологии Будущего (1, 1)
  Axelot (Акселот) (1, 1)
  Другие (5, 5)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Datareon Platform - 366 (366, 0)
  Цифра: Диспетчер Система мониторинга промышленного оборудования и персонала - 35 (35, 0)
  1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 28 (28, 0)
  HFLabs Единый клиент - 22 (22, 0)
  АйТи Про: BI.Qube - 18 (18, 0)
  Другие 201

  Datareon Platform - 54 (54, 0)
  АйТи Про: BI.Qube - 4 (4, 0)
  Commvault Complete Data Protection - 4 (4, 0)
  ЮниДата Платформа управления данными - 3 (3, 0)
  Alation Data Catalog - 2 (2, 0)
  Другие 26

  Datareon Platform - 67 (67, 0)
  Цифра: Диспетчер Система мониторинга промышленного оборудования и персонала - 7 (7, 0)
  1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 5 (5, 0)
  Полином:MDM - 2 (2, 0)
  Platforma и HFLabs: Технология безопасного метчинга данных - 2 (2, 0)
  Другие 15

  Datareon Platform - 42 (42, 0)
  1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 5 (5, 0)
  Naumen Enterprise Search - 3 (3, 0)
  Цифра: Диспетчер Система мониторинга промышленного оборудования и персонала - 3 (3, 0)
  Магнит.DMP Платформа по управлению цифровой рекламой - 2 (0, 2)
  Другие 13

  Datareon Platform - 3 (3, 0)
  Neuroniq.Platform Цифровая интеграционная платформа - 1 (1, 0)
  HFLabs Единый клиент - 1 (1, 0)
  Altcraft Platform - 1 (1, 0)
  МТС DataOps Platform - 1 (1, 0)
  Другие 4

Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Рэйдикс (Raidix) (35)
  ITglobal.com (ИТглобалком Рус) (35)
  R-Style Softlab (Эр-Стайл Софтлаб) (27)
  BeringPro (БерингПойнт) ранее BearingPoint Russia (26)
  Сапран (Saprun) (22)
  Другие (529)

  Сапиенс солюшнс (Sapiens solutions) (7)
  ITglobal.com (ИТглобалком Рус) (6)
  Aerodisk (Аеро Диск) (4)
  Крикунов и Партнеры Бизнес Системы (КПБС, KPBS, Krikunov & Partners Business Systems) (3)
  BeringPro (БерингПойнт) ранее BearingPoint Russia (3)
  Другие (30)

  Кортис (1)
  Крикунов и Партнеры Бизнес Системы (КПБС, KPBS, Krikunov & Partners Business Systems) (1)
  Ростелеком (1)
  Философия.ИТ (1)
  ActiveCloud by Softline (АктивХост РУ) (1)
  Другие (8)

  Киберпротект (ранее Акронис-Инфозащита, Acronis-Infoprotect) (3)
  Линс (Lins) (1)
  РТК Цифровые Технологии, РТК ЦТ (ранее РТК Информационные Технологии, РТК ИТ) (1)
  Шаркс Датацентр (Sharx DC) (1)
  Arenadata (Аренадата Софтвер) (1)
  Другие (6)

  ITglobal.com (ИТглобалком Рус) (1)
  Lenovo (1)
  X-Com (Икс ком) (1)
  КНС Групп (Yadro) (1)
  Другие (0)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  SAP SE (1, 101)
  NetApp (25, 66)
  Рэйдикс (Raidix) (19, 50)
  IBM (30, 43)
  Dell EMC (68, 32)
  Другие (678, 337)

  SAP SE (1, 8)
  NetApp (5, 7)
  Aerodisk (Аеро Диск) (5, 6)
  Lenovo (1, 6)
  Lenovo Data Center Group (1, 6)
  Другие (18, 19)

  Aerodisk (Аеро Диск) (3, 2)
  Hewlett Packard Enterprise (HPE) (1, 1)
  Lenovo Data Center Group (1, 1)
  NetApp (1, 1)
  КНС Групп (Yadro) (1, 1)
  Другие (6, 6)

  Киберпротект (ранее Акронис-Инфозащита, Acronis-Infoprotect) (1, 3)
  Шаркс Датацентр (Sharx DC) (1, 1)
  Arenadata (Аренадата Софтвер) (1, 1)
  Lenovo (1, 1)
  ВымпелКом ПАО (1, 1)
  Другие (3, 3)

  NetApp (1, 1)
  КНС Групп (Yadro) (1, 1)
  Synology (SLMP PTE) (1, 1)
  Другие (0, 0)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 101 (101, 0)
  NetApp FASx - 45 (45, 0)
  Raidix СХД - 45 (45, 0)
  RS-DataHouse - 27 (24, 3)
  Lenovo ThinkSystem - 17 (17, 0)
  Другие 293

  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 8 (8, 0)
  Lenovo ThinkSystem - 6 (6, 0)
  Аэродиск Восток СХД - 3 (3, 0)
  IBM FlashSystem - 3 (3, 0)
  NetApp FASx - 3 (3, 0)
  Другие 19

  Aerodisk vAIR - 1 (1, 0)
  ActiveStorage (ранее Active S3) - 1 (1, 0)
  Аэродиск Восток СХД - 1 (1, 0)
  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 1 (1, 0)
  HPE Apollo 4000 Серверы - 1 (1, 0)
  Другие 6

  Кибер Инфраструктура (ранее Acronis Инфраструктура) - 3 (3, 0)
  Cloudike - 2 (0, 2)
  Cloud4Y СХД - 1 (1, 0)
  Yadro платформа хранения данных Tatlin - 1 (1, 0)
  EDP - Arenadata Enterprise Data Platform - 1 (1, 0)
  Другие -1

  Yadro платформа хранения данных Tatlin - 1 (1, 0)
  Synology NAS - DiskStation Manager - 1 (1, 0)
  Другие 0